Batch Normalization

mentions 2 type Person feed RSS

// recent coverage 2 mentions

19:01

2026-06-30

pub.towardsai.net

neural-networks

Making Neural Networks Learn Better: Understanding Activation Functions, Xavier Initialization, He…

Deep neural networks face training challenges like vanishing gradients and slow convergence. Techniques such as activation functions, Xavier and He weight initialization, and Batch Normalization help …

04:00

2026-05-28

arxiv.org

machine-learning

SparseOpt: Addressing Normalization-induced Gradient Skew in Sparse Training

Researchers at arXiv have identified that Batch Normalization causes gradient skew in dynamic sparse training (DST) methods, leading to slower convergence compared to dense neural network training. Th…

// co-occurs with top 8 entities

SparseOpt 1 ResNet 1 CIFAR-100 1 ImageNet 1 Dynamic Sparse Training 1 Xavier 1 He 1 Sigmoid 1